iT邦幫忙

2024 iThome 鐵人賽

DAY 7
0

在 Azure Machine Learning 的 Model Catalog 裡,有兩種部署 model 的方式,分別是 Managed compute 和 Serverless API。

1. Managed compute

這就是昨天傳統的模型部署方式,模型權重會被部署到專用的 VM,並通過 Azure Machine Learning 提供的受管端點(Managed Online Endpoints)進行 real-time inference。

主要特點:

模型會被部署到專用的虛擬機上,部署後,Azure 會自動生成 REST API,方便開發者通過 API 請求進行模型推理。

計費方式是根據虛擬機的 CPU 或 GPU 核心小時(Core Hours)進行計費,這代表要支付虛擬機持續運行的成本。

適用場景:

  • 高性能要求:如果應用程式需要大量的計算資源來進行實時推理,Managed compute 能提供專用的資源,確保模型高效運行。
  • 長期部署:當您的應用需要長期且穩定的模型部署環境,Managed compute 可以提供一致的運行環境和更靈活的性能調整選項。
  • 安全性需求高:Managed compute 支持虛擬網路,提供隔離的運行環境,特別適合企業對網路安全有嚴格要求的應用。

最坑人的地方:

這一台 VM 不會顯示在 Azure VM 裡面,而是只能在 Azure ML 裡的 Endpoints 被找到。所以你有可能架了一個起來玩,忘記刪掉,就被一直扣錢。你看帳單是 VM,但是在 Azure VM 裡遍尋不著,最後才發現這是在 Azure ML 裡的。

這是我損失 1000 多美元的經驗,慎之!


2. 無伺服器 API(Serverless API)

無伺服器 API是一項全新的服務,可以按需求付費的模型部署方式,通過 Models as a Service (MaaS) 模式來提供模型推理。這種方式不需要專用的基礎設施,模型會被託管在 Azure 的中央 GPU 池中,並通過 API 進行訪問。

主要特點:

Serverless API 按照 API 的輸入和輸出進行計費,通常以 tokens 為單位,根據模型處理的請求數量收費。你只需為實際使用的資源付費,無需承擔持續運行基礎設施的費用,也減少了部署和維護的複雜性。

此外,也不會像昨天的 llama 3.1 8B 要求的資源太大,還要額外申請伺服器核心的問題。

適用場景:

  • 初期開發或小規模應用:當應用處於初期階段,或推理請求量較小時,Serverless API 的低成本、高靈活性是最佳選擇。
  • 臨時使用或 Poc:如果您的應用推理需求是臨時的或是 PoC 中,Serverless API 可以在不需要時節省成本,當需求增加時再根據實際使用量付費。
  • 開發敏捷性要求高:對於需要快速迭代、實驗或短期項目的場景,Serverless API 免去了基礎設施的配置負擔,讓開發者專注於應用的開發與優化。

坑點

能使用 Serverless 的其實很少!!大部份都是 OpenAI 的模型。

以我們昨天的範例來說, llama 3.1 8B 沒有 Serverless,只有 Managed。但是如果你換一個模型 Meta-Llama-3.1-8B-Instruct,就有有 Serverless 可以部署了,如下圖所示。

生成式 AI 時代下的 Azure Machine Learning 教學圖文

明天我們就來把這個 Serverless 的 Meta-Llama-3.1-8B-Instruct 給部署起來玩玩吧!


上一篇
Day06-Model Catalog 傳統部署 curated models 和 HuggingFace
下一篇
Day08-部署 Serverless 的 Llama-3.1-8B-Instruct
系列文
生成式 AI 時代下的 Azure Machine Learning13
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言